查看原文
其他

不懂就问,这波虎扑diss吴亦凡属于什么水平?

Crossin先生 Crossin的编程教室 2020-10-08

我绝对是个不合格的公众号作者

面对热门话题就像个过客。(双押x2

人家写文章热点蹭不停

跑得比香港记者还快

我非觉得不行

选角度、写代码,折腾到现在

跟风的人逃不开过气的宿命,(双押x3 跳押

我的文章却反复被人山寨。(双押x3 跳押


(押韵支持来自我们去年的文章 Python有嘻哈:Crossin教你用代码写出押韵的verse



在我这儿,热点只是吸引你们点进来的引子,实际内容则是不那么讨喜但确实有用的信息(为了让你们学点知识我容易么……)。比如这篇文章,五年之后再翻出来,一样对很多人有价值。


今天要说的就是上周一个小热点:

虎扑大战吴亦凡


作为半个从步行街上走出来的公众号和半个伪嘻哈爱好者,尘埃落定之后,出来打个圆场。


顺便也给各位演示下,怎样对一个事件/网站做数据(舆情)分析


相关代码已上传,获取代码请在公众号(Crossin的编程教室)回复 虎扑


由于篇幅所限,本文只展示结论和思路。如果想听详细的代码分析,请在文章右下角点个赞,人多的话我就另开一篇详细说明。




事件的前因后果我不想多啰嗦(之前微信上有一篇来龙去脉的文章已被举报)。简单来说就是因为一段无伴奏音轨,虎扑上的用户和吴亦凡的粉丝们在步行街掐上了。


对此次掐架进行的分析数据来源:


  • 因为虎扑无法查看太早的帖子,所以此案例的数据截取了步行街栏目 7月25日下午3点 8月2日下午四点半 左右的帖子。

  • 根据标题中包含的关键字(包含吴、凡、skr、diss等),筛选出 4370 个主题贴,共 260241 个回帖,主题总浏览量 125523319 次。

  • 由于相关回帖数和参与用户太多,案例中的后续分析只抽样了部分主题进行。选取了回帖数最高的 100 个主题帖加随机 100 个主题帖,共包含 136964 个回帖,并随机选取了其中 5279 个用户。


数据采集的思路:


  1. 从步行街页面上一页页抓取文章列表,抓取主题的标题链接,并记录回帖数浏览量

  2. 对于抽样选中的主题,抓取主题内所有回帖(可能需要抓多页),记录下每个回帖的内容、时间、作者ID

  3. 根据作者ID,从用户资料页抓取等级、卡路里、喜爱的运动/队伍等信息。


发帖行为:



按时间把回帖量以折线图绘制出来。可以很明显地看到2个高峰:25号晚上30号晚上,分别是事件爆发当晚和吴亦凡发歌反击的那晚。


如果把发帖量以一天24小时的分布来衡量,发帖高峰期还是在晚饭后,正应了“茶余饭后”这词。


用户画像:


用户最高等级 231最高卡路里 561278


1级的用户占比遥遥领先,估计有很多都是刚注册的小号吧。6级以下用户占了将近一半。


大多数用户的卡路里在 10~20 左右,但也有极个别的大神数据逆天。


将两项数据以点状图绘制出来,能比较直观的看出用户的分布。


(看不清的点击图片查看大图)并不是所有用户都填写了喜欢的运动和队伍。在填写的人中,篮球占了绝对优势。毕竟虎扑起步于篮球社区。比较意外的是运动装备占到了第三位。


湖人的支持者最多,不怪湖人总冠军皇马是排名最高的非NBA球队,广东华南虎广州恒大是排名最高的国内篮/足球队。法拉利是跻身此图中的唯一非篮/足球队。


有一个很重要的用户信息我没有统计:性别。因为我觉得对于可能是最好的直男网站来说,这根本没有必要啊。


话题内容:


从词频来看,虎扑吴亦凡平分秋色,skr 无疑成最大赢家。


随机挑了 1000 个回帖进行情感分析,结果出乎我意料:除去一半多的中性内容(为了显示效果,图上有做过处理),正面和负面情绪竟然在数量上差不多,甚至正面情绪还多一点点。细细对照具体内容看了下,虽是互掐,但言语上还是以调侃、戏谑为主,粗暴过激的语言并不多。所以这种事情嘛,认真你就输了。


以上就是对虎扑此次热点的粗浅分析。不算很细致很精确,但足够给练习数据分析的同学参考。


用到的外部库:

  • peewee

  • request

  • BeautifulSoup

  • pyecharts

  • jieba

  • wordcloud


想要再进一步,还有不少值得挖掘的信息。比如说:


1. 标题/内容关键字与阅读数的关系。你想发一个被热议的帖子,该写什么?

2. 根据参与话题的关键字对用户进行分类。平台方可以由此了解用户兴趣所在,推送推荐内容。

3. 用户活跃度(发/回帖数、在线时长等)与用户兴趣(运动、队伍、关键字)及用户行为(上线时间、访问设备)、用户属性(性别、年龄、职业)之间的关联性


互联网上的热点层出不穷,总是能给广大围观群众送上吃不完的瓜。把有限的注意力和时间花费在什么事情上,是每个人的自由,不做评判。我个人的态度在以前的文章 全菊变量和菊部变量 里说过,借热点说点有用的东西。以及,关注一些真正需要更多关注的事件 他花了14个小时找了一下长春长生们究竟卖到了哪里去



获取文中案例源代码,请在公众号(Crossin的编程教室)回复 虎扑





如需了解视频课程及答疑群等更多服务,请号内回复 码上行动

代码相关问题可以在论坛上发帖提问 bbs.crossincode.com


推荐阅读:

开发工具 世界杯 | 高考 | 我用Python | 知乎 | 排序 | 朋友圈 | 电影票 | 技术宅 | 火车票 | 单词表 | 押韵工具 | 新手建议 | 就业 



欢迎加入

Crossin的编程教室

crossincode.com


  请把我们分享给身边爱学习的小伙伴 :)  

点击文末“阅读原文”,查看更多学习资源

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存